vllm

大模型本地部署,小号的vLLM来了

• 一方面,像vllm、ollama、ragflow、llama.cpp和huggingface/transformers这样的项目占据主导地位,这表明贡献者正在投资 AI 的基础层——模型运行时、推理引擎和编排框架。• 另一方面,像vscode、godot、

模型 llm download dir vllm 2025-11-18 13:45  5

Qwen3-8B vLLM 部署调用

高效的内存管理:通过 PagedAttention 算法, vLLM 实现了对 KV 缓存的高效管理,减少了内存浪费,优化了模型的运行效率。高吞吐量: vLLM 支持异步处理和连续批处理请求,显著提高了模型推理的吞吐量,加速了文本生成和处理速度。易用性: vL

llm 深度学习 prompt vllm 阶乘 2025-09-28 12:04  6

GitHub 总计超 77,000 Star,大模型推理框架 vLLM、SGLang 是如何炼成的?

大语言模型(LLM)的训练过程因巨大的计算需求和突破性的成果而备受关注,然而决定这些模型在现实世界中实用性和广泛采用的关键,却是在推理(Inference)阶段的效率、成本和延迟。推理的定义是,一个经过训练的 AI 模型将其学到的知识应用于全新的、未见过的数据

模型 推理 github vllm sglang 2025-09-24 12:34  10